The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
高光谱成像技术(HSI)在远程分布光谱波长上记录了视觉信息。代表性的高光谱图像采集程序通过编码的光圈快照光谱成像器(CASSI)进行了3D到2D的编码,并且需要用于3D信号重建的软件解码器。基于此编码程序,两个主要挑战妨碍了高保真重建的方式:(i)获得2D测量值,CASSI通过分散器触觉并将其挤压到同一空间区域,从。 (ii)物理编码的光圈(掩码)将通过选择性阻止像素的光曝光来导致掩盖数据丢失。为了应对这些挑战,我们提出了具有面膜感知的学习策略的空间光谱(S2-)变压器体系结构。首先,我们同时利用空间和光谱注意模型来沿两个维度划分2D测量中的混合信息。空间和光谱线索跨的一系列变压器结构是系统设计的,它考虑了两倍提示之间的信息相互依赖性。其次,蒙面的像素将引起更高的预测难度,应与未掩盖的像素不同。因此,我们通过推断出对蒙版意识预测的难度级别来适应归因于面具结构的损失惩罚。我们提出的方法不仅定量设置了新的最新方法,而且在结构化区域中产生了更好的感知质量。
translated by 谷歌翻译
语义本地化(SELO)是指使用语义信息(例如文本)在大规模遥感(RS)图像中获得最相关位置的任务。作为基于跨模式检索的新兴任务,Selo仅使用字幕级注释来实现语义级检索,这表明了其在统一下游任务方面的巨大潜力。尽管Selo已连续执行,但目前没有系统地探索并分析了这一紧急方向。在本文中,我们彻底研究了这一领域,并根据指标和测试数据提供了完整的基准,以推进SELO任务。首先,基于此任务的特征,我们提出了多个判别评估指标来量化SELO任务的性能。设计的显着面积比例,注意力转移距离和离散的注意距离可用于评估从像素级别和区域级别中产生的SELO图。接下来,为了为SELO任务提供标准评估数据,我们为多样化的,多语义的,多目标语义定位测试集(AIR-SLT)贡献。 AIR-SLT由22个大型RS图像和59个具有不同语义的测试用例组成,旨在为检索模型提供全面的评估。最后,我们详细分析了RS跨模式检索模型的SELO性能,探索不同变量对此任务的影响,并为SELO任务提供了完整的基准测试。我们还建立了一个新的范式来引用RS表达理解,并通过将其与检测和道路提取等任务相结合,证明了Selo在语义中的巨大优势。拟议的评估指标,语义本地化测试集和相应的脚本已在github.com/xiaoyuan1996/semanticlocalizationmetrics上访问。
translated by 谷歌翻译
大量的数据和创新算法使数据驱动的建模成为现代行业的流行技术。在各种数据驱动方法中,潜在变量模型(LVM)及其对应物占主要份额,并在许多工业建模领域中起着至关重要的作用。 LVM通常可以分为基于统计学习的经典LVM和基于神经网络的深层LVM(DLVM)。我们首先讨论经典LVM的定义,理论和应用,该定义和应用既是综合教程,又是对经典LVM的简短申请调查。然后,我们对当前主流DLVM进行了彻底的介绍,重点是其理论和模型体系结构,此后不久就提供了有关DLVM的工业应用的详细调查。上述两种类型的LVM具有明显的优势和缺点。具体而言,经典的LVM具有简洁的原理和良好的解释性,但是它们的模型能力无法解决复杂的任务。基于神经网络的DLVM具有足够的模型能力,可以在复杂的场景中实现令人满意的性能,但它以模型的解释性和效率为例。旨在结合美德并减轻这两种类型的LVM的缺点,并探索非神经网络的举止以建立深层模型,我们提出了一个新颖的概念,称为“轻量级Deep LVM(LDLVM)”。在提出了这个新想法之后,该文章首先阐述了LDLVM的动机和内涵,然后提供了两个新颖的LDLVM,并详尽地描述了其原理,建筑和优点。最后,讨论了前景和机会,包括重要的开放问题和可能的研究方向。
translated by 谷歌翻译
我们报告了以前未被发现的多项式加强学习(MARL),名为“责任扩散”(DR)。博士导致谈判可靠的责任划分以完成复杂的合作任务。它反映了现有算法如何处理基于价值和基于策略的MARL方法的多种探索难题的缺陷。该DR问题与社会心理学领域(也称为旁观者效应)中具有相同名称的现象具有相似之处。在这项工作中,我们从理论上分析了DR问题的原因开始,我们强调DR问题与奖励成型或信用分配问题无关。为了解决DR问题,我们提出了一种政策共振方法,以改变多种勘探探索策略并促进MARL算法在困难的MARL任务中的性能。大多数现有的MARL算法可以配备此方法,以解决由DR问题引起的性能降解。实验是在多个测试基准任务中进行的,包括FME,诊断性多种环境和竞争性的多基因游戏ADCA。最后,我们在SOTA MARL算法上实施了策略共振方法,以说明这种方法的有效性。
translated by 谷歌翻译
3D场景感性风格化旨在根据给定的样式图像从任意新颖的视图中生成光真逼真的图像,同时在从不同观点呈现时确保一致性。一些带有神经辐射场的现有风格化方法可以通过将样式图像的特征与多视图图像结合到训练3D场景来有效地预测风格化的场景。但是,这些方法生成了包含令人反感的伪影的新型视图图像。此外,他们无法为3D场景实现普遍的影迷风格化。因此,样式图像必须根据神经辐射场重新训练3D场景表示网络。我们提出了一个新颖的3D场景,逼真的风格转移框架来解决这些问题。它可以通过2D样式图像实现感性3D场景样式转移。我们首先预先训练了2D逼真的样式传输网络,该网络可以符合任何给定内容图像和样式图像之间的影片风格转移。然后,我们使用体素特征来优化3D场景并获得场景的几何表示。最后,我们共同优化了一个超级网络,以实现场景的逼真风格传输的任意样式图像。在转移阶段,我们使用预先训练的2D影视网络来限制3D场景中不同视图和不同样式图像的感性风格。实验结果表明,我们的方法不仅实现了任意样式图像的3D影像风格转移,而且还优于视觉质量和一致性方面的现有方法。项目页面:https://semchan.github.io/upst_nerf。
translated by 谷歌翻译
点云的几乎没有分割仍然是一项具有挑战性的任务,因为没有有效的方法将局部点云信息转换为全局表示,这阻碍了点特征的概括能力。在这项研究中,我们提出了双向特征全球化(BFG)方法,该方法利用点特征和原型向量之间的相似性测量,以双向方式将全球感知嵌入到局部点特征中。随着点对点型全球化(PO2PRG),BFG根据从密度点特征到稀疏原型的相似权重将本地点特征汇总到原型。使用原型到点全球化(PR2POG),基于从稀疏原型到密集点特征的相似性权重,全局感知嵌入到局部点特征中。每个类嵌入全局感知的类的稀疏原型汇总到基于度量学习框架的几个原型3D分割的单个原型。对S3DIS和SCANNET的广泛实验表明,BFG显着超过了最新方法。
translated by 谷歌翻译
多基础强化学习(MARL)可以解决复杂的合作任务。但是,现有的MAL方法的效率在很大程度上取决于明确定义的奖励功能。具有稀疏奖励反馈的多项式任务尤其具有挑战性,这不仅是由于信用分配问题,而且还因为获得积极的奖励反馈的可能性较低。在本文中,我们设计了一个称为合作图(CG)的图形网络。合作图是两个简单的二分图的组合,即代理聚类子图(ACG)和指定子图(CDG)的群集。接下来,基于这种新颖的图形结构,我们提出了一个合作图多力增强学习(CG-MARL)算法,该算法可以有效地处理多基因任务中的稀疏奖励问题。在CG-MARL中,代理由合作图直接控制。政策神经网络经过培训,可以操纵这一合作图,并指导代理人以隐式的方式实现合作。 CG-MARL的层次结构特征为定制集群活动提供了空间,这是一个可扩展的界面,用于引入基本合作知识。在实验中,CG-MARL在稀疏奖励多基准基准中显示出最新的性能,包括抗侵袭拦截任务和多货车交付任务。
translated by 谷歌翻译
最近,高光谱成像(HSI)引起了越来越多的研究关注,特别是对于基于编码光圈快照谱成像(CASSI)系统的研究。现有的深度HSI重建模型通常接受对数据进行配对数据,以在CASSI中的特定光学硬件掩模给出的2D压缩测量时检索原始信号,在此期间,掩码很大程度上影响了重建性能,并且可以作为数据上的“模型超参数”。增强。此屏蔽特定的培训风格将导致硬件错误稳定问题,从而为在不同硬件和嘈杂环境中部署深度HSI模型的障碍。为了解决这一挑战,我们为HSI引入了具有完整变分的贝叶斯学习处理的掩码不确定性,并通过真实硬件的启发的掩模分解显式模拟它。具体而言,我们提出了一种基于图形的自我调整(GST)网络,以推理适应不同硬件之间的掩模的不同空间结构的不确定性。此外,我们开发了一个Bilevel优化框架,以平衡HSI重建和不确定性估计,占MASK的HyperParameter属性。广泛的实验结果和模型讨论验证了两个错误频繁场景下提出的GST方法的有效性(超过33/30 dB),与最先进的校正方法相比,竞争性能很大。我们的代码和预先接受的模型可在https://github.com/jiamian wang / mask_unctainty_spectral_sci获得
translated by 谷歌翻译
最近,深入学习在相位展开的边缘投影三维(3D)测量中吸引了越来越多的关注,旨在提高利用强大的卷积神经网络(CNN)模型的性能。在本文中,首次(据我们所知)第一次,我们将变压器介绍进入与CNN不同的相位解映射,并提出专用于通过边缘订单预测展开相位展开的顺序模型。所提出的模型具有混合CNN变压器架构,主要由骨干,编码器和解码器组成,以利用CNN和变压器。具有交叉关注的编码器和解码器是针对边缘订单预测设计的。实验结果表明,与U-NET和DCNN等CNN模型相比,所提出的HFORMER模型以边缘顺序预测实现更好的性能。此外,对HFormer的消融研究是为了验证改进的特征金字塔网络(FPN)和测试策略,并以预测的条纹顺序翻转。我们的工作为基于深度学习的相位展开方法开辟了一种替代的方法,该方法由条纹投影3D测量中的CNN主导。
translated by 谷歌翻译